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摘要 : 


ik] 以 情报 领域 部 分 相关 期 刊 2012 年 -2016 年 发 表 论 文 的 共 著 网 络 为 实验 数据 ， 基 于 贝 叶 基 


[ 目的 ] 在 科学 合作 网 络 的 发 展 及 主要 社区 发 现 方法 的 基础 上 ,提出 发 现 合 作 网 络 社区 信息 的 方法 。[ 方 


对 称 非 儿 矩阵 分 


解 方法 , 结合 自动 相关 确定 稀 下 压 缩 原理 , 实现 社区 数量 的 自动 获取 ,并 在 分 解 过 程 中 应 用 对 称 和 矩阵 分 解 原理 。 
[ 结果 】 通过 与 现 有 方法 的 比较 与 分 析 , 本文 方 法 得 到 较 好 的 实验 结果 。[ 局 限 】 网 络 数据 获取 中 未 引入 学 者 王 
别 的 优化 方法 。[ 结论 】 本 文 提出 的 方法 能 有 效 解决 合作 网 络 社区 发 现 需 求 。 
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贝 叶 斯 方法 


1 5| 

社区 发 现 是 进行 社会 网 络 分 析 的 重要 方法 之 一 ， 
通过 对 大 型 复杂 网 络 内 部 的 社区 发 现 , 可 以 利用 已 有 
言 息 了 解 网 络 的 运行 情况 ， 有 效 理解 和 分 析 整 体 网 络 
的 属性 ， 进 而 发 现 最 有 关联 性 的 网 络 内 部 组 织 来 简化 
全 局 结构 ,理解 网 络 的 拓扑 属性 。 网 络 中 的 社区 可 以 
通过 图 分 割 法 趾 不 断 最 小 化 社区 之 间 的 连接 数 获取 ; 也 
可 以 通过 如 基于 某 个 目标 函数 (如 模块 度 ) 随 机 优化 外 及 
统计 推理 中 等 方法 来 实现 。 

随 着 知识 和 科学 技术 不 断 全 球 化 发 展 ,科学 研究 
涉及 学 科 领 域 不 断 增 多 , 使 得 合作 研究 成 为 科学 研究 
的 主流 方式 。 在 科学 网 络 (Scientific Network) pS, £} 
学 家 或 研究 学 者 成 为 关键 节点 ,他 们 通过 各 种 不 同 的 
关联 方式 形成 以 科学 协作 为 主 的 相互 联系 ,如 共同 发 
表 论文 、 发 表 文 献 的 相互 引用 、 在 相同 领域 学 科 杂 志 
或 会 议 上 发 表 成 果 等 。 通 过 将 科学 网 络 进行 有 效 社区 
发 现 和 聚 类 , 进而 简化 整个 庞大 、 复 杂 的 科学 知识 系 
统 ; 可 以 将 作者 聚 类 至 不 同 研究 社区 中 , 社区 内 的 人 


m} 


员 有 相同 的 研究 方向 或 兴趣 ( 强 关 联 性 ), 不 同 社区 之 
间 的 人 员 有 不 同 的 研究 兴趣 ( 弱 关 联 性 ),， 进而 通过 对 
不 同 社区 的 特性 进行 分 析 , 获取 不 同 作者 所 在 的 科学 
知识 社区 ,理解 科研 人 员 的 合作 和 交流 模式 ,挖掘 科研 
人 员 的 研究 兴趣 ; 并 可 进一步 应 用 图 分 析 和 可 视 化 功 
能 , 从 网 络 分 析 角 度 对 合作 数据 有 更 加 深入 的 揭示 。 

本 文 将 提出 一 种 基于 和 矩阵 分 解 学 习 的 优化 社区 
发 现 算法 ， 从 整体 网 络 中 发 现 内 在 的 多 个 社区 ,并 在 
实际 网 络 中 取得 了 良好 的 社区 发 现 效果 ; 同时 通过 基 
于 贝 叶 斯 推理 的 稀 玻 压缩 方法 ， 目 动 获取 社区 的 数量 , 
解决 了 一 般 和 矩阵 分 解 学 习 中 无 法 自动 确定 分 解 维度 的 
问题 。 
2 科学 网 络 

科学 网 络 研 究 主要 研究 知识 体系 中 科学 家 之 间 的 
社区 特性 , 分 析 其 相互 关联 性 和 演化 趋势 ， 常见 的 科学 


网 络 有 出 版 物 引 文 网 络 趾 、 期 刊 共 引 外 和 克 合 网 络 中 、 
共 词 网 络 中 和 共 著 网 络 W"。 在 共 著 网 络 中 , 学 者 成 为 
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区 发 现 技 术 与 应 用 研究 ”( 项 目 编号 : 13JCY14) 的 研究 成 果 之 一 。 


Data Analysis and Knowledge Discovery 


果 成 为 之 间 的 链接 (如 论文 、 图 书 、 报 告 及 基金 项 目 
等 )。 对 应 的 链接 权重 w(u,v) 等 于 wu 和 vw 共同 贡献 的 作 
品 数 量 。 在 合作 网 络 中 , 一 般 认 为 RI v 对 于 作品 的 
贡献 是 相同 的 , 因此 该 网 络 是 一 个 无 向 网 ， 即 wu, v= 
W(v, u)o 

Newman 在 2004 年 分 析 了 生物 、 物 理 和 数学 三 
个 不 同学 科 的 论文 数据 , 分 析 共 同 发 表 论 文 的 作者 
关系 (Coauthorship), 分 析 作 者 之 间 协 作 关 系 的 社区 
结构 ， 以 及 不 同学 科 科 学 协作 网 络 的 差异 ,同年 他 还 
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CFinder 和 NetworkX 使 用 CPM(Clique Percolation 
Method)" "| 完全 子 图 过 滤 方 法 实现 社区 发 现 , 其 他 的 
图 分 割 方法 主要 还 有 层次 聚 类 如 BGLL 算法 [和 和 矩阵 
分 解 学 习 方法 等 。 

D 分 裂 方法 。 网 络 的 社团 结构 分 析 往 往 要 求 算 
法 能 够 准确 、 自 动 地 确定 网 络 的 社团 个 数 并 给 出 相应 
社团 的 “自然 "分割 。 近 年 来 有 大 量 的 更 适合 网 络 社团 
分 析 的 有 效 算法 被 提出 。Newman 等 提出 一 种 通过 边 
移 除 按 层次 地 分 解 网 络 的 社团 分 析 方 法 趾 , 这 项 工作 
被 认为 是 现代 社区 结构 分 析 方 法 的 开创 性 工作 , 引起 


提出 基于 模块 度 的 层次 社区 结构 分 类 方法 (1; 王 福 
生 等 针对 《图 书 情报 工作 》 杂 志 2001 年 -2006 年 的 
论文 数据 , 构建， 并 分 析 作 者 科研 合作 网 络 模型 的 分 
布 与 演化 过 程 睛 ; Mimno 通过 建立 文献 社区 -作者 - 
主题 模型 (Community-Author-Topic) 提 取 科 学 家 合作 
网 络 中 的 研究 社区 ， 并 对 NIPS 会 议 上 发 表 的 论文 数 
据 进 行 科学 社区 发 现 的 实验 分 析 中 Erfanmanesh 等 
通过 对 Scientometrics 期 刊 1980 年 -2012 年 的 3 125 
篇 文章 进行 共 著作 者 分 析 研 究 ， 发现 其 中 的 活跃 、 中 
心 和 协同 节点 中 ]。 


3 社区 发 现 方法 


随 着 复杂 网 络 学 科 的 不 断 发 展 ,， 众 多 学 者 提出 用 
以 解释 各 种 物理 现象 的 网 络 模型 ， 例 如 小 世界 模型 、 
无 标 度 网 络 以 及 随机 网 络 等 ; 同时 伴随 海量 数据 分 析 
与 挖掘 为 条 旨 的 数据 挖掘 技术 研究 的 深入 ,计算 机 科 
学 家 根据 信息 网 络 的 规模 巨大 性 等 特点 , 设计 出 高 效 
率 并 具有 一 定 智能 的 鲁 棒 社区 分 类 算法 ,这些 方法 主 
要 为 基于 图 论 的 社区 发 现 算法 , 包括 谱 聚 类 分 割 、 层 
级 社区 发 现 算法 和 基于 随机 行走 的 聚 类 算法 等 。 目 前 
常用 的 网 络 处 理工 具有 UCINET , iGraph , Gephi , Pajek 
和 CytoScape 等 , 不 仅 可 以 实现 网 络 中 节点 和 链接 的 


了 各 领域 研究 人 员 的 广泛 兴 

(3) 合并 方法 。 在 合并 方法 中 , 模块 度 (Modularity)"” 
标准 被 提出 并 用 于 衡量 社团 结构 划分 好 坏 。 网 络 的 某 
种 划分 对 应 模块 度 值 越 高 往往 表明 该 划分 越 可 能 是 符 
合 网 络 社团 结构 的 划分 , 一 般 社区 的 模块 度 都 在 0.3 
至 1 之 间 。 模 块 度 是 基于 随机 网 络 不 存在 社团 结构 的 
假定 , 以 所 有 节点 的 度 值 与 给 定 网 络 相 同 但 边 随机 连 
接 的 网 络 为 参考 模型 ， 比 较 给 定 网 络 的 所 有 社团 内 部 
边 的 数量 与 相对 应 的 社团 内 部 边 的 期 望 数 量 。Le 
Martelot 等 提出 基于 模块 度 优化 的 快速 迭代 社区 发 现 


块 度 的 新 社区 分 配 。 

尽管 在 理论 和 实践 上 基于 图 分 割 的 社区 方法 取得 
了 一 定 的 成 功 , 但 仍然 有 一 些 不 足 。 这 些 算法 通常 等 
价 于 一 个 特征 值 分 解 问题 , 而 社区 可 以 从 生成 特征 向 
量 确 定 , 然而 这 些 关键 的 特征 向 量 并 没有 具体 的 物理 
含义 。 通 常 来 讲 ， 所 有 的 网 络 结构 均 可 以 通过 关系 图 
来 表示 ,其 主要 结构 表征 即 为 其 邻接 矩阵 (Adjacency 
Matrixz)， 由 于 邻接 矩阵 的 非 负 特性 (所 有 元 素 为 1 或 
0), Pe TE ELAES 2J BUSUUEAE B 3 53 JE fe FE BE SY ft 
(Non-negative Matrix Factorization,NMF) 得 到 了 很 好 
的 应 用 。NMEF 是 一 种 比较 新 的 矩阵 分 解 算法 ,主要 用 


定量 分 析 , 并 支持 简单 的 社区 发 现 功能 。 网 络 社区 发 
现 根 据 聚 合 原理 主要 有 以 下 方法 54: 

(1) 图 分 割 法 。 网 络 的 社区 发 现 就 是 将 网 络 按 其 
内 在 的 社团 结构 划分 成 一 个 个 子 网 络 的 过 程 。 在 计算 
机 科学 领域 , 这 类 问题 一 般 称 作 图 分 割 (Graph 
Partitioning)。 基 于 图 分 割 的 社区 发 现 算法 利用 节点 间 
关系 的 信息 ,其 隐 含 的 基本 假设 是 : 子 社区 内 部 的 交 
互 要 远 远 比 子 社区 之 间 的 交互 更 为 紧密 。 开 源 工 具 的 


数据 分 析 与 知识 发现 


于 数据 聚 类 应 用 ,于 1999 年 才 被 开始 提出 请 ， 它 克服 
了 传统 和 矩阵 分 解 的 很 多 问题 , 通过 寻找 上 下 文 有 意义 
的 解决 方法 ,提供 解释 数据 的 更 深入 看 法 , 为 人 类 处 
理 大 规模 数据 提供 一 种 新 的 途径 。 因 此 将 NMF 应 用 
到 社区 发 现 中 , 在 分 解 过 程 中 保持 网 络 的 非 负 性 , 往 
往 能 达到 表示 社区 的 局 部 之 间 相 关 关 系 的 效果 ; 并 从 
全 局 出 发 , 快速 发 现 不 同 社区 的 信息 ,取得 更 好 的 社 
KRZR, 


4 ” 非 负 和 矩 阵 分 解 学 习 在 科学 网 络 社区 发 现 
中 的 应 用 


NMF 的 基本 思想 可 以 简单 描述 为 : 对 于 任意 给 定 
的 一 个 非 负 和 矩阵 卫 NMF 算法 能 够 寻找 到 一 个 非 负 和 矩 
阵 U 和 一 个 非 负 和 窍 阵 V, 使 得 满足 忒 和 UV 之 间 的 最 
优 近似 ， 从 而 将 一 个 非 负 的 矩阵 分 解 为 左右 两 个 非 负 
和 矩阵 的 乘积 ， 和 < UV NMF 初始 被 应 用 于 图 像 分 
类 、 文 本 挖掘 等 领域 ， 近 年 来 有 不 少 研究 者 开始 将 这 
种 方法 应 用 于 各 种 网 络 的 社区 发 现 中 请 ， 其 中 包括 大 
量 的 科学 网 络 数据 。Wang 等 中 通过 对 第 0-12 卷 的 
NIPS 会 议论 文 数据 进行 合 著 网 络 分 析 ， 有 效 发 现 社区 
中 的 重要 作者 节点 (Superstars)。Zhang 等 的 使 用 贝 叶 
斯 NMF 三 分 解 对 Newman 等 的 网 络 科 学 合作 网 络 和 
高 能 理论 合作 网 络 进行 社区 发 现实 验 。Mankad 等 中 
使 用 加 入 L1 范 数 稀 玻 约束 的 NMF 方法 对 2003 
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KDD Cup 提供 的 引文 网 络 数据 进行 社区 发 现 。Yang 
等 中 通过 NMF 方法 从 大 规模 DBLP( 计 算 机 科学 协作 
网 络 ) 网 络 中 有 效 发 现 其 中 的 重 琶 社区 结构 。 

Xie 等 上 通过 调研 社区 发 现 方法 ,提出 NMF 处 理 
社区 发 现 问题 时 ， 其 分 解 维度 设置 和 复杂 度 简化 是 主 
要 问题 : 

(1 NMF 是 一 种 无 监督 的 方法 , 通常 社区 的 数量 
玉 是 未 知 的 , 因此 需要 有 效 判断 社区 数量 K; 

D 对 于 一 些 特殊 网 络 ， 如 合 著 网 络 , 源 图 是 一 
个 无 向 图 ,需要 充分 利用 网 络 结构 优化 分 解 算法 ， 提 
升 算法 效率 。 

如 图 1 所 示 , 本 文 将 以 自动 收割 到 的 期 刊 发 文 与 
作者 数据 为 基础 ， 生 成 合 著 网 络 (对 称 网 络 )， 并 以 邻 
接 和 矩阵 形式 表示 ,并 通过 贝 叶 斯 对 称 非 负 矩阵 分 解 
(Bayesian Symmetric NMF, BSNMF) PNET KERK 
社区 发 现实 验 。 
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初始 网 络 邻接 矩阵 AREE 社区 信息 
图 1 BSNMF 过 程 演示 
(1) 通过 贝 叶 斯 假设 和 Automatic Relevance @ A i51 到 ni. 
Determination ARD) £i 7 IE., A cR SOBRE DC OKP | 二 二 Eres 
"m E i 、 lxS+SxB SxS 
的 数量 Ko ARD 是 一 种 基于 贝 叶 斯 推断 的 模型 选择 方 "n" 
法 ， 它 通过 超 参数 的 应 用 ,表示 模型 对 应 不 同 特性 的 ORES 
相关 性 ， 并 通过 定义 一 些 参数 来 描述 这 些 特性 的 偏差 加 结束 
©K — S 中 非 替 的 列 数 


范围 。 如 果 偏 差 为 零 , 则 相应 的 特性 对 模型 预测 不 起 
任何 作用 。 因 此 ,ARD 可 以 自动 发 现 模型 中 相关 的 一 
些 关 键 元 素 , 在 社区 发 现 中 ， 即 为 分 解 出 来 的 主要 社 
区 属性 。 
Q) 设 定 分 解 的 两 个 矩阵 是 对 称 的 , 既 U =V, 
大 大 简化 计算 过 程 。 
BSNMF 的 算法 过 程 如 下 : 
输入 网 络 邻 接 矩 阵 Y e RDN ， 
a,b; 
ELETE BEREK 是 一 个 对 角 线 为 p, RES AE TIS 
(D da 364648 Ee. So 


初始 化 K, 固定 超 参 数 
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返回 及 和 

其 中 , 蕊 为 输入 的 网 络 邻接 矩阵 , K 为 初始 设置 的 
社区 数 , S 为 分 解 后 的 目标 矩阵 ,S: 和 KK 是 对 5S 去除 全 
零 向 量 后 的 结果 ; ab 是 模型 的 超 参数 , 通过 多 次 实验 
比较 确认 , Mirer I TROC. 

通过 抽取 , 建立 网 络 和 矩阵 总 在 MATLAB 下 运行 
BSNMEF 算法 , 不 仅 自动 获取 到 社区 的 数目 K:, 对 于 
返回 的 5 的 维度 为 NxK«, 取 S 中 每 一 列 的 最 大 值 
c=argmaxoSw， 即 为 第 i 个 点 所 属 的 社区 信息 ， 自 动 获 
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取 每 个 社区 的 信息 。 
4.1 数据 处 理 
通过 中 国 期 刊 网 的 RSS 聚合 源 ， 获 取 《 人 情报 资 
料 工作 》《 情 报 理论 与 实践 》《 人 情报 科学 》 和 《 情 
报 杂 志 》4 种 情报 领域 期 刊 的 2012 年 -2016 年 的 论 
文 和 作者 信息 81, 共计 6254 篇 论文 ,对 应 作者 
14312 个 。 再 通过 网 页 抓 取 方法 ， 获 取 论 文 对 应 的 
单位 信息 ， 以 作者 姓名 结合 作者 单位 作为 去 重 条 件 ， 
去 重 后 得 到 7 625 个 作者 。 每 两 个 作者 有 合作 发 表 
论文 则 两 点 之 间 有 边 相 连 ,， 边 权重 为 两 个 作者 合 
作 的 篇 数 ; 据 此 形成 一 个 7 625 个 节点 、12 672 条 边 
的 大 规模 科学 合作 网 络 ， 其 中 每 个 节点 平均 度 为 
1.66, 即 5 年 中 每 人 平均 和 1.66 人 次 同行 进行 合作 
发 文 。 

表 1 显示 了 发 表 论 文 最 多 的 10 位 作者 在 合作 网 络 
中 的 度数 信息 。 由 于 不 同人 员 合作 发 表 论 文 的 情况 不 
同 , 若 一 位 作者 全 部 以 独立 作者 进行 发 文 时 ， 其 在 合 
著 网 络 中 表示 为 一 个 独立 节点 , 经 计算 , 在 此 网 络 中 
共有 665 个 孤立 节点 ,因此 在 进行 社区 发 现 应 用 之 前 ， 
先 将 这 些 孤 立 节点 删除 ， 以 提升 整体 社区 发 现 的 效 
果 。 形 成 新 的 合作 网 络 邓 包含 6 960 个 节点 , 边 数 仍 
然 为 12 672 条 。 
R1 发 表 论 文 前 10 的 作者 信息 


姓名 单位 发 表 次 数 网 络 度数 
PIE “武汉 大 学 50 66 
朱 庆 华 。 ”南京 大 学 41 83 
黄 鲁 成 北京 工业 大 学 40 118 
赵 敬 英武 汉 大 学 36 49 
陈 福 集 ”福州 大 学 35 48 
王国 华 ”华中 科技 大 学 30 89 
谢 阳 群 淮北 师范 大 学 27 48 
娄 策 群 ”华中 师范 大 学 26 44 
KEI 武汉 大 学 26 37 
IEE 南京 大 学 25 42 


4.2 主要 方法 比较 

结合 生成 的 合作 网 络 , 将 现 有 的 多 个 社区 发 现 方 
法 进行 模块 度 结果 比较 。 

(1) CPM 完全 子 图 过 滤 方 法 09, 使 用 3-Clique 发 
现 网 络 中 的 完全 子 图 数量 , 未 发 现 的 节点 作为 独立 节 
点 来 计算 整体 模块 度 ; 
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Q) GN 算法 5， 基 于 聚 类 中 的 分 裂 原 理 ， 使 用 边 
介 数 作为 相似 度 的 度量 方法 ; 

(3) BGLL 层次 化 社团 结构 的 凝聚 算法 07 

(4) Louvain 贪 禁 优化 方法 ”在 迭代 中 不 断 优化 
分 类 社区 的 模块 度 ; 

(5 NMFP?M,， 利 用 非 负 矩阵 方法 的 聚 类 功能 实现 
社区 发 现 ; 

(6) SNMFP?), 对称 非 负 和 矩 阵 方法 处 理 无 向 网 络 的 
社区 发 现 ; 

(7) BSNMF， 本 文 提出 的 贝 叶 斯 对 称 非 负 和 矩 阵 分 
解 方法 。 

BSNMF 方法 设置 初始 社区 数 为 节点 总 数 的 五 分 
之 一 , 初始 设置 超 参数 a=5, b-2, 运行 wor=500 次 和 迭代 
以 保证 收敛 ,在 获得 矩阵 5 H, 对 应 的 非 零 列 共有 702 
列 ， 即 共 分 成 702 个 社区 。 由 于 方法 2、 方 法 5、 方 法 6 
需要 初始 设置 社区 数 ,实验 设 定 为 由 BSNMF 方法 获 
取 的 社区 数 702。 

经 验证 , 在 表 2 的 已 有 算法 中 , Louvain 算法 取 
得 了 比较 好 的 社区 发 现 效果 , 而 BSNMEF 方法 发 现 
的 社区 结果 模块 度 达 到 0.9664， 得 到 最 高 的 网 络 分 
区 效果 ,同时 ， 相 比方 法 5 和 方法 6,BSNMF 中 的 对 


称 和 矩阵 分 解 方法 和 贝 叶 斯 方法 都 取得 了 更 好 的 实验 
结果 。 
R2 社区 发 现 结果 模块 度 比较 
方法 模块 度 
3-Clique 0.3579 
GN 0.5530 
BGLL 0.8294 
Louvain 0.9165 
NMF 0.4209 
SNMF 0.8165 
BSNMF 0.9664 


4.3 社区 发 现 结果 分 析 

图 2 为 BSNMEF 发 现 的 702 个 社区 的 节点 直方 图 ， 
其 中 紧密 的 前 6 个 大 型 社区 在 表 3 中 显示 , 在 这 些 社 
区 中 的 节点 人 员 通 过 共同 发 表 论文 关系 ,形成 不 同 紧 
密 的 作者 合 著 社 区 或 合 著 小 组 , 在 这 些 社区 中 的 作者 
具有 类 似 的 研究 兴趣 或 方向 , 今后 这 些 作者 之 间 有 更 
大 的 可 能 性 来 继续 合作 发 表 论文 。 


201712.01370v1 


chinaXiv 


0 20 40 60 80 100 120 


图 2 4 BSNMF 发 现 的 702 个 社区 的 
节点 数 统计 


图 3 通过 网 格 图 显示 了 社区 1 的 主要 节点 作者 
KRZR, ERT AMEE, MAF, RETENE 
心 节 点 的 紧密 合作 社区 。 通 过 分 析 发 现 ， 从 社区 1 
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共同 发 表 的 140 篇 论文 中 抽取 得 到 的 关键 主题 词 有 
“情报 ”(34 次 )、“ 评 价 ”(26 次 )、“ 网 络 ”(22 次 ) 以 及 “ 信 
息 ”(21 次 )。 

RI 其 中 发 现 的 几 个 主要 社区 及 节点 信息 


TE GAS 


ED 


MEE, MLF, HET, 潘 云 涛 ， 


1 103 200 iti TÆ, SEM, X8 
朱 庆 华 , RIE, KE, KFA, 
2 100 192 XE LEID 
AER, AEJ HELL, RIE, 
3 100 220 ^A ORE 
4 89 159 ” 毕 强 , Xi, BED F, WW 
' a as, ERE MAE, Boris, MGR, E 
HUE. 杨 腾 飞 ， 徐 晓 林 , KE, DIRE 
] VEMM I IOE, EEM, 


RAI, 王 欣 , 王 丹 , 许 孝 君 ， 宋 拓 


t LT p 
m 


2 


yp A 


图 3 以 孙 建 军 等 为 主要 节点 的 网 格 形 社区 结构 (黄色 节点 为 度 大 于 10 的 节点 ) 


如 图 4 形成 的 网 络 合作 发 文 主题 词 云图 所 示 , 在 
社区 1 中 的 人 员 更 加 关注 情报 学 相关 的 网 络 评价 和 信 
息 管理 方法 领域 , 同时 人 员 之 间 也 有 更 高 的 合作 发 文 
趋势 。 

图 5 通过 环形 图 显示 了 社区 3 的 主要 节点 作者 关 
RR, 形成 以 黄 鲁 成 为 中 心 节点 的 紧密 合作 社区 。 通 
过 分 析 社区 3 共同 发 表 的 116 篇 论文 , 其 中 69 篇 集中 
发 表 在 同一 类 期 刊 上 , 抽取 到 的 关键 主题 词 为 “ 专 
利 ”(38 W), 说 明 社区 3 中 主要 的 研究 领域 是 专利 分 析 
为 中 心 的 相关 文献 计量 和 技术 应 用 研究 。 

图 3 的 社区 1 分 布 结构 与 图 5 社区 3 有 所 不 同 , 社 
区 3 基于 节点 “ 黄 鲁 成 ”分 成 两 个 不 关联 社区 , 分 别 是 
以 “ 翟 东 升 为 共同 主要 节点 和 以 “ 苗 红 ， 吴 菲菲 ”为 共 


图 4 
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图 $ 以 黄 鲁 成 为 主要 节点 的 环形 社区 结构 
(黄色 节点 为 度 大 于 10 的 节点 ) 
同 主要 节点 的 两 个 独立 社区 ,因此 后 续 可 以 使 用 重 秋 
社区 分 区 方法 , 将 “ 黄 鲁 成 "同时 分 布 在 两 个 不 同 社区 ， 
以 达到 更 好 的 社区 分 类 效果 。 
5 结 语 


科学 网 络 社区 发 现 可 以 在 大 量 文献 中 ， 有 效 发 现 
潜在 的 学 者 关联 社区 ,对 基于 网 络 科学 的 文献 计量 有 
很 好 的 技术 支撑 作用 , 应 用 贝 叶 斯 非 负 和 矩阵 方法 能 快 
速 有 效 发 现 相 关 社 区 信息 ， 自 动 确定 社区 数量 ,并 以 
情报 学 领域 合作 网 络 中 进行 应 用 实验 , 对比 其 他 的 社 
区 发 现 方法 , 取得 了 更 高 的 模块 度 值 。 同 时 一 些 节 点 
可 能 同时 出 现在 不 同 社区 ( 见 图 5), HH HR ERAS 
(Overlapping)， 如 何 能 自动 、 有 效 发 现 重合 社区 , 可 以 
进一步 拓展 应 用 。 在 合作 网 络 分 析 中 ,如 何 自动 有 效 
甄别 作者 身份 信息 ,形成 和 自然 人 的 一 一 对 应 , 是 
合作 网 络 的 数据 清洗 的 关键 , 也 是 实现 在 跨 学 科 、 交 
叉 领 域 学 者 社区 发 现 的 关键 , 需要 在 数据 处 理 过 程 加 
人 更 多 专家 经 验 和 智能 化 手段 以 取得 新 的 突破 。 
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Detecting Community in Scientific Collaboration Network with 
Bayesian Symmetric NMF 


Shi Xiaohua'" Lu Hongtao? 
'(Library of Shanghai Jiaotong University, Shanghai 200240, China) 
"(Computer Science Department, Shanghai Jiaotong University, Shanghai 200240, China) 


Abstract: [Objective] This study proposes and examines a new method to identify the communities in collaboration 
network of scientific researchers. [Methods] First, we retrieved the need data from information science journal articles 
published from 2012 to 2016. Then, we used the Automatic Relevance Determination to find the target community with 
the Bayesian Symmetric Non-negative Matrix Factorization method. Finally, we compared the performance of our 
method with the existing ones. [Results] The proposed method got better results than others. [Limitations] Did not 
optimize our data with the researcher identifications. [Conclusions] The proposed method could effectively find 
communities from the scientific collaboration network. 

Keywords: Scientific Network Co-author Network | Community Detection Non-negative Matrix Factorization 
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BioRN 


SSRN 发 布 新 的 生物 网 络 工具 


科学 健康 领域 的 全 球 信 息 分 析 公 司 
BioRN。 

生物 研究 者 可 以 将 预 印 本 和 工作 底稿 发 布 到 BioRN 上 , 分 享 观点 和 其 他 早期 研究 成 果 并 展开 合作 。BioRN 让 用 户 迅 速 
上 传 以 及 免费 阅读 摘要 和 论文 全 文 。 

SSRN 总 经 理 Gregg Gordon Wi: “经 过 几 周 的 测试 , 对 BioRN 的 反馈 不 同 几 响 。SSRN 处 于 一 个 特殊 位 置 来 服务 生物 研究 
社区 。 在 分 享 方面 我 们 已 经 有 超过 20 年 的 经 验 , 同时 我 们 也 从 爱 思 唯 尔 的 知识 、 技 术 以 及 与 作者 的 联系 中 获 益 。 无 论 你 是 
位 生物 学 专业 的 学 生还 是 高 级 研究 者 , 在 BioRN 上 面 分 享 你 的 工作 和 合作 将 有 很 多 优势 。” 
建立 这 个 致力 于 促进 生物 发 展 的 网 络 符合 SSRN 的 发 展 逻辑 , 因为 它 拥 有 跨越 诸如 生物 技术 、 生 物 伦 理 法 律 和 生态 等 领 
域 各 个 网 络 的 大 量 的 生物 学 方面 的 内 容 。BioRN 已 经 拥有 来 自 6 500 位 作者 的 近 4 500 篇 文章 。 这 个 全 新 的 网 络 将 通过 促进 
生命 科学 与 社会 科学 之 间 跨 学 科 的 合作 、 鼓 励 同行 建设 性 的 反馈 、 提 升 研究 者 的 声誉 来 发 展 生 物 学 研究 社区 。 

SSRN 在 其 eLibrary 拥有 由 超过 340 000 作者 提交 的 近 625 000 份 论文 和 750 000 份 摘要 ,有 超过 1 亿 的 下 载 量 。 它 为 全 
球 的 研究 者 、 学 生 、 创 业者 、 学 者 、 企 业 和 组 织 提供 服务 。 当 研究 成 果 尚 未 在 期 刊 或 书籍 上 发 表 出 来 之 前 ，SSRN 就 为 这 些 
果 提 供 了 分 享 和 传播 的 机 会 。 超 过 200 万 研究 者 使 用 SSRN, 并 参与 30 个 社区 驱动 的 网 络 , 涉及 的 学 科 包 括 经 济 学 、 管 理 
学 和 法 学 。 

一 份 预 印 本 是 作者 自己 对 研究 结果 和 尚未 经 过 同行 评议 或 接受 任何 由 出 版 商 提供 的 附加 值 (例如 调整 格式 、 副 本 编辑 、 
技术 增强 ) 的 分 析 的 重新 整合 。 一 个 预 印 本 服务 器 或 者 工作 底稿 知识 库 让 用 户 可 以 分 享 这 些 文件 。 


(编译 自 : http://www.stm-assoc.org/industry-news/ssrn-launches/) 
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